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摘要 ” 受 限 于 评分 成 本 , 开放 式 情 境 判断 测验 难以 广泛 使 用 。 本 研究 以 教师 胜任 力 测 评 为 例 ， 
探索 了 自动 化 评分 的 应 用 。 针对 教学 中 的 典型 问题 场景 开发 了 开放 式 情 境 判 断 测 验 , 收集 中 
小 学 教师 作答 文本 , 采用 有 监督 学 习 策略 分 别 从 文档 层面 和 句子 层面 应 用 深度 神经 网 络 识别 
作答 类 别 ， 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 效 果 理 想 ， 各 题 评分 准确 率 为 
70%~88%， 与 人 类 评分 一 致 性 高 ， 人 机 评分 的 相关 系数 + 为 0.95, 二 次 加 权 Kappa 系数 
(Quadratic Weighted Kappa, QWK) 为 0.82。 结 果 表 明 ， 机 器 评分 可 以 获得 稳定 的 效果 ， 自 动 
化 评分 研究 能 够 助力 于 开放 式 情境 判断 测验 的 广泛 应 用 。 
关键 词 ”情境 判断 测验 ， 自 动 化 评分 ， 教 师 胜 任 力 ， 开 放 式 测验 ， 机 器 学 习 
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Abstract 

Situational Judgment Tests (SJTs) have gained popularity for their unique testing content and 
high face validity. However, traditional SJT formats, particularly those employing multiple-choice 
(MC) options, have encountered scrutiny due to their susceptibility to test-taking strategies. In 
contrast, open-ended and constructed response (CR) formats present a propitious means to address 
this issue. Nevertheless, their extensive adoption encounters hurdles primarily stemming from the 
financial implications associated with manual scoring. In response to this challenge, we propose 
an open-ended SJT employing a written-constructed response format for the assessment of teacher 
competency. This study established a scoring framework leveraging natural language processing 
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(NLP) technology to automate the assessment of response texts, subsequently subjecting the 
system's validity to rigorous evaluation. The study constructed a comprehensive teacher 
competency model encompassing four distinct dimensions: student-oriented, problem-solving, 
emotional intelligence, and achievement motivation. Additionally, an open-ended situational 
judgment test was developed to gauge teachers' aptitude in addressing typical teaching dilemmas. 
A dataset comprising responses from 627 primary and secondary school teachers was collected, 
with manual scoring based on predefined criteria applied to 6,000 response texts from 300 
participants. To expedite the scoring process, supervised learning strategies were employed, 
facilitating the categorization of responses at both the document and sentence levels. Various deep 
learning models, including the convolutional neural network (CNN), recurrent neural network 
(RNN), long short-term memory (LSTM), C-LSTM, RNN-attention, and LSTM+attention, were 
implemented and subsequently compared, thereby assessing the concordance between human and 
machine scoring. The validity of automatic scoring was also verified. 

This study reveals that the open-ended situational judgment test exhibited an impressive 
Cronbach's alpha coefficient of 0.91 and demonstrated a good fit in the validation factor analysis 
through the use of Mplus. Criterion-related validity was assessed, revealing significant 
correlations between test results and various educational facets, including instructional design, 
classroom evaluation, homework design, job satisfaction, and teaching philosophy. Among the 
diverse machine scoring models evaluated, CNNs have emerged as the top-performing model, 
boasting a scoring accuracy ranging from 70% to 88%, coupled with a remarkable degree of 
consistency with expert scores (r= 0.95, QWK=0.82). The correlation coefficients between human 
and computer ratings for the four dimensions—student-oriented, problem-solving, emotional 
intelligence, and achievement motivation—approximated 0.9. Furthermore, the model showcased 
an elevated level of predictive accuracy when applied to new text datasets, serving as compelling 
evidence of its robust generalization capabilities. 

This study ventured into the realm of automated scoring for open-ended situational judgment 
tests, employing rigorous psychometric methodologies. To affirm its validity, the study 
concentrated on a specific facet: the evaluation of teacher competency traits. Fine-grained scoring 
guidelines were formulated, and state-of-the-art NLP techniques were used for text feature 
recognition and classification. The primary findings of this investigation can be summarized as 
follows: (1) Open-ended SJTs can establish precise scoring criteria grounded in crucial behavioral 
response elements; (2) Sentence-level text classification outperforms document-level classification, 
with CNNs exhibiting remarkable accuracy in response categorization; and (3) The scoring model 
consistently delivers robust performance and demonstrates a remarkable degree of alignment with 
human scoring, thereby hinting at its potential to partially supplant manual scoring procedures. 
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和 较 高 的 表面 效 度 而 广 为 流 行 ,常用 于 人 员 选 拔 与 评 


在 人 事 测 评 领域 ， 情 境 判 断 测验 (Situational Judgment Test, SJT) 因 其 测验 内 容 的 独特 性 
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。 题 干 通常 呈现 一 系列 与 工作 相关 的 


情境 , 选项 则 是 若干 典型 行为 反应 , 要 求 受 测 者 选择 最 符合 自己 实际 做 法 的 一 项 或 对 选项 排 


PGR, 戴 海 琦 , 2003)。 人 情境 判断 测验 是 测量 胜任 力 的 良好 工具 ， 比 面试 成 本 更 低 ， 比 自 


陈 式 量 表 更 生动 , 在 预测 工作 绩效 方面 比 一 般 认 知 能 力 测验 、 人 格 测验 表现 更 佳 (Burrus et al., 


2012; McDaniel et al., 2007; McDaniel et al., 2011; Oostrom et al., 2012; Slaughter et al., 2014; 


Weekley & Ployhart, 2005). 


按照 开放 程度 的 不 同 ， 情 境 判 断 测验 作答 形式 总 体 可 分 为 封闭 式 (Closed Response 


Formats) 和 开放 式 (Open-ended Formats)。 封 闭 式 即 传统 的 多 项 选择 式 (Multiple Choice, MC); 


开放 式 即 构 答 反 应 式 (Constructed Response, CR)， 题 目 不 呈 现 选 项 ， 被 试 可 自由 作答 ， 主 要 


包括 书面 回答 式 (Written-constructed)、 视 听 构 建 式 (Audio-visual Constructed)、 人 情景 面试 


(Situational Interview) 等 。 其 中 ， 书 面 回答 式 要 求 受 测 者 写 出 做 法 ; 视听 构建 式 一 般 用 多 媒 


体 呈 现 情境 ， 要 求 受 测 者 口头 回答 或 表演 ， 并 进行 录 


试 则 是 主考 官 与 受 测 者 在 面对面 (或 线 上 ) 的 情况 下 问 和 


H 
i| 


作答 态度 、 猜 测 和 应 试 策略 的 影响 ， 受 测 者 易 从 选项 


Hl](Oostrom et al., 2010, 2011); 情景 面 


[24 


封闭 式 是 目前 主流 的 测验 形式 , 方便 标准 化 处 理 和 快速 计 分 。 然 而 这 种 形式 也 易 受 个 体 


获取 提示 ,在 高 利害 场景 中 存在 择优 


作答 情况 ， 难 以 有 效 区 分 高 胜任 力 个 体 (McDaniel et al., 2001; Robson et al., 2007)。 此 外 ， 对 


受 测 者 而 言 ， 选 项 本 身 含 有 额外 的 认 知 负荷 ， 需 阅读 完 所 有 选项 并 辨析 含义 、 做 比较 判断 ， 


这 一 过 程 中 认 知 能 力 等 额外 变量 会 对 测验 结果 产生 影 


2012)。 


影响 (Lievens et al., 2015; Marentette et al., 


开放 式 作 答 一 定 程度 上 可 以 解决 这 些 问题 ,， 这 种 形式 不 局 限于 固定 答案 , 能 够 给 予 受 测 


者 更 多 自由 表达 的 空间 (Finch et al., 2018)， 促 进 受 测 者 对 主题 材料 的 深入 理解 (Bacon, 2003; 


Rogers & Harley, 1999; Kastner & Stangla, 2011), 使 其 有 


高 的 参与 动机 、 更 沉浸 地 做 出 反应 


(Arthur et al., 2002; Edwards & Arthur, 2007)。 开 放 性 SIT 题 项 认 知 负荷 较 小 ,猜测 被 最 小 化 ， 


与 传统 多 项 选择 式 相 比 ， 具 有 更 理想 的 效 标 关 联 效 度 (Funke & Schuler, 1998) 和 预测 效 度 


(Arthur, 2002; Funke & Schuler, 1998; Lievens et al., 2019), 更 接近 现实 生活 中 的 思考 与 行为 过 


程 ， 具 有 更 高 的 生态 效 度 和 表面 效 度 (Kjell etal., 2018). 


尽管 随 着 技术 的 进步 ， 越 来 越 多 的 研究 者 开始 探索 开放 式 SJT， 但 目前 研究 仍 处 于 直 


(i 
SE 


阶段 (Cucina et al., 2015)。 有 研究 者 对 书面 回答 式 (Lievens et al., 2019) 和 视听 构建 式 (Oostrom 


et al., 2010, 2011) 的 测验 形式 进行 了 探索 ， 是 富有 创新 性 的 尝试 ， 然 而 评分 环节 仍 采 用 人 工 


评分 方式 。 人 工 评分 的 时 间 和 人 力 成 本 高 (Edwards & Arthur 2007; Downer et al., 2019; Iliev et 


al., 2015)， 易 受 评分 者 效应 (Rater Effects) 影 响 (Edwards & Arthur, 2007; Lievens et al., 2019). 


在 Lievens 等 (2019) 的 研究 中 ， 评 分 员 在 每 个 受 测 者 上 平均 


Schuler(1998) 的 研究 中 ， 使 用 了 三 人 评分 以 保证 评分 质量 。 因 此 ， 在 对 效率 要 求 高 的 大 规模 


施 测 中 ， 这 类 开放 式 测验 往往 会 被 谨慎 选用 。 评 分 问题 已 成 


Al A liev et al., 2015)， 人 迫切 需 要 解决 


动 化 评分 问题 。 


相 较 于 人 工 评分 ， 自 动 化 评分 (Automated Scoring) 适 用 于 
且 能 够 实现 即时 反馈 。 而 如 何 实现 开放 式 SIT 的 自动 化 评分 ， 相 关 研 究 甚 少 ， 尚 未 有 明确 


花费 约 35 分 钟 ， 在 Funke 和 


为 阻碍 开放 式 SIT 发 展 的 重要 


的 做 法 和 系统 的 研究 范式 。Guo 等 2021) 使 用 自然 语言 处 到 


NLP) 技 术 分 析 了 五 个 开放 式 SIT 的 公开 数据 , AH 


更 多 元 的 测评 任务 ， 成 本 更 低 


E( Natural Language Processing, 


H Doc2Vec 将 文本 转换 为 向 量 , 使 用 岭 回 


归来 预测 人 格 得 分 ， 其 平均 相关 系数 为 0.28(:=0.22~0.38)， 相 关 性 较 低 ， 也 并 未 报告 该 方 


法 的 可 靠 性 和 有 效 性 。Tavoosi (2022) 设 计 了 包含 4 道 题 目的 反 生 产 工作 行为 


(Counterproductive Work Behavior, CWB) 开 放 式 SJT， 并 采用 N-gram 方法 进行 主题 建 模 ， 抽 


取 了 主题 词 ， 但 并 未 实现 评分 。 


PH 


虽 无 明确 的 


分 员 评分 ， 在 Lievens 等 (2019) 的 研究 中 ， 人 -了 


Anchored Rating, BAR)， 评 分 标准 更 加 


究 范式 ， 但 相关 研究 可 以 提供 方法 上 的 借鉴 。 第 一 ， 开 放 式 SIT 的 评分 
标准 ， 可 以 参考 人 工 评分 标准 来 设 定 。 人 工 评分 一 般 有 简单 的 评分 要 点 ， 再 由 两 名 以 上 的 评 


以 将 自动 化 评分 问题 分 为 两 类 ， 长 文本 类 型 如 作文 自动 化 


AES)， 短 文本 类 型 如 简 答题 自动 评分 (Automatic Short-answer Grading, ASAG)， 开 放 式 SIT 


[评分 参照 了 行为 销 定 评分 表 (Behavioral 
上 有 具体、 客观 ， 该 表 是 Smith 和 Kendall Æ 1963 年 提出 


的 ， 它 是 一 种 用 于 员工 绩效 评级 的 行为 测量 工具 。 第 二 ， 自 动 化 评分 算法 。 按 照 文本 长 度 可 


评分 (Automated Essay Scoring, 


自动 化 评分 问题 介 于 此 两 类 之 间 。 第 三 ， 自 动 评分 的 解释 性 和 效 度 验证 。 心 理 测量 学 更 加 关 


注 评 分 的 可 靠 性 、 有 效 性 和 公平 性 ， 仅 订 


分 模型 准确 率 高 并 不 能 充分 说 明 机 器 评分 的 效果 。 
机 评 效果 的 评估 指标 还 包括 与 人 工 评分 的 相关 系数 、 完 全 一 致 率 、 一 致 率 系数 Kappa)、 评 


分 分 布 的 一 致 性 、 相 关 样 本 评分 差异 ! 检验 等 (Ramineni et aL, 2012), Williamson 等 (2012) 提 


出 机 器 评分 的 效 度 验证 框架 ， 包 括 评分 结果 的 解释 、 评 估 、 外 推 、 概 化 和 使 用 5 个 方面 。 
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其 中 ， 上 述 第 二 点 自动 化 评分 算法 是 本 研究 的 核心 ， 以 下 详细 介绍 。AES 和 ASAG 适 
用 的 问题 场景 和 评估 重点 背 不 同 ，AES 侧重 于 评估 文本 的 并 


意 、 结 构 、 写 作风 格 、 语 法 和 


而 
D 


[m] 


连贯 性 等 ， 开 放 程度 高 ， 评 分 核心 是 文本 特征 


SAG 的 文本 一 般 有 若干 单词 或 小 短 多 ， 题 目 有 参考 答案 ， 开 放 程 度 较 低 ， 是 围绕 


A 
案 的 有 限 开 放 , 简 答题 考察 特定 知识 点 , 因此 评分 核心 侧重 于 评估 语义 内 容 (Burrows et al., 


I 取 (Rudner & Liang, 2002; Yang et al., 2022). 


标准 


2015)， 常 见方 法 有 关键 词 匹配 法 ， 即 作答 文本 的 关键 词 越 多 则 分 数 越 高 ， 或 采用 相似 度 算 


放 程度 不 同 。 既 不 是 完全 发 散 式 (SJT 的 回答 可 以 被 归 类 为 有 限 的 类 别 )， 亦 不 存在 标准 
在 相同 问题 情境 下 不 同 个 体 有 着 独特 的 解决 方案 , 并 不 存在 明确 的 、 基 于 专业 知识 的 “正确 ” 


答案 (Whetzel & McDaniel, 2009)。(2) 评 分 标准 不 同 。 开 放 式 SIT 中 ,文本 挖掘 的 重点 在 了 


法 ， 即 作答 文本 与 标准 答案 的 相似 度 越 高 则 分 数 越 高 。 
不 同 于 以 上 两 类 ， 开 放 式 SJT 的 自动 化 评分 是 一 个 新 的 问题 类 型 。 


主要 表现 为 ，(1) 开 


BE 


^3 
BAAN»? 


然 语 言 文本 与 所 测 心理 特质 的 关系 , 某 一 情境 下 的 不 同 做 法 代表 着 受 测 者 不 同 的 能 力 水 平 及 


特质 倾向 ， 而 这 种 倾向 的 差异 正 是 评估 的 重点 。 因 而 ， 开 放 式 SIT 的 自动 化 评分 很 难 


直接 


参考 既 有 算法 : 文本 风格 辨析 与 所 测 心 理 特质 之 间 难 以 建立 实际 联系 ; 关键 词法 更 关注 表层 


语义 的 相似 程度 ， 并 不 适用 于 语义 更 加 丰富 的 SIT 作答 文本 ; 相似 度 算法 亦 不 适合 ， 开 放 


A SIT 逻辑 上 并 无 标准 答案 ， 若 采用 此 方法 ， 则 背离 了 SJT 题目 设计 的 初衷 。 


考虑 到 作答 文本 中 包含 不 同类 型 的 做 法 , 可 以 从 文本 语义 内 容 入 手 , 尝试 将 评分 问 


化 为 文本 分 类 任务 (Lubis et al., 2021; Ramesh & Sanampudi, 2022; Siizen et al., 2020)。 


题 转 


动 文 


本 分 类 (Automated Text Classificatiom) 是 将 文本 自动 划分 到 某 些 预定 义 类 别 中 的 过 程 (Basu & 


Murthy, 2013)。 文 本 分 类 的 流程 主要 包括 : 


文本 预 处 理 、 特 征 提 取 、 模 型 训练 、 模 型 记 


Ff. 


模型 优化 与 应 用 等 部 分 。 这 种 有 监督 的 文本 分 类 流程 如 图 1 所 示 , 包括 两 个 阶段 ， 第 一 个 阶 


段 是 在 有 标签 的 训练 数据 上 进行 模型 训练 , 第 二 个 阶段 是 应 用 j 
并 作 性 能 评估 。 在 两 个 阶段 中 ,文本 数据 需要 进行 相同 的 预 处 理 


文本 所 关联 的 标签 做 出 预测 。 


| 练 好 的 模型 对 测试 数据 预测 
和 特征 提取 操作 ， 例 如 去 售 
用 词 、 统 计 词 频 等 ， 从 而 获取 计算 机 可 直接 计算 的 数值 型 文本 表征 。 所 训练 的 分 类 模型 可 以 


看 作 从 文本 表征 到 分 类 标签 的 映射 函数 , 通过 指定 的 机 器 学 习 算 法 训练 得 到 ,并 实现 对 分 类 


模型 性 能 评估 


特征 提取 CEETTTH 


文本 表征 


1 有 监督 的 文本 分 类 框架 图 
机 器 学 习 特 别 是 深度 学 习 模 型 在 文本 分 类 (Yang et al., 2022) 任 务 中 能 够 取得 较 好 的 结果 。 


常用 的 机 器 学 习 分 类 算法 有 支持 向 量 机 (Support Vector Machines, SVM). K Jr 4I (k-Nearest 


W 


Neighbor, KNN)、 朴 素 贝 叶 斯 (Naive Bayes)、 决 策 树 (Decision Tree) 等 。 近 几 年 ， 基 于 深度 神 


经 网 络 的 文本 分 类 方法 有 了 极 大 突破 , 展现 出 了 更 强大 的 性 能 。 深度 学 习 的 方法 是 基于 预 训 


练 的 词 向 量 模型 ， 使 用 如 卷 积 神经 网 络 (Convolutional Neural Network, CNN)、 和 循环 神经 网 络 


(Recurrent Neural Network, RNN) 等 深度 神经 网 络 实现 文本 分 类 任务 ， 在 语 料 足够 的 情况 下 ， 
可 以 表现 出 极 佳 的 性 能 , 执行 文本 评分 任务 可 以 达到 接近 人 的 水 平 , 甚至 比 人 工 评分 表现 出 
更 强 的 稳定 性 。 

£x Enti £i. 开放 式 情境 判断 测验 具有 不 可 丛 代 的 优势 , 适用 于 需 对 个 体 进 行 细 粒度 刻画 
的 场景 中 , 且 这 类 自由 式 作答 文本 中 蕴含 着 丰富 的 情绪 情感 信息 、 表 征 着 人 格 特质 与 行为 偏 
向 ,对 文本 内 容 进 行 挖掘 ， 可 以 更 全 面 地 测量 个 体 心理 ,实现 个 性 化 评价 。 但 评分 问题 目前 
存在 一 定 困难 ， 主 要 有 : (1) 评 分 标准 的 制定 。 目 前 评分 多 依赖 于 专家 经 验 。(2) 自 动 化 评分 
的 实现 。 评估 自由 文本 本 身 就 具有 挑战 性 , 在 心理 测评 应 用 场景 中 ,更 是 由 于 计算 机 不 理 角 


作答 真实 含义 ， 使 得 自动 化 评分 难以 实现 区 astner & Stangla, 2011; Zhang et al., 2020)。(3) 自 


— 


a 


动 化 评分 的 解释 与 效 度 验证 。 开 放 式 测 验 的 自动 化 评分 研究 较 少 , 且 难 以 解释 评分 模型 输出 
的 预测 分 数 的 含义 ， 评 分 的 效 度 验证 等 问题 仍 有 待 研究 。 

本 文 探索 了 开放 式 SJT 在 教师 胜任 力 测评 任务 上 的 应 用 ， 以 中 小 学 教师 为 研究 对 象 ， 
基于 心理 测量 学 的 框架 开发 一 套 开放 式 SIT， 结 合 典型 行为 反应 设计 评分 标准 ， 采 用 深度 学 
习 模型 实现 自动 化 评分 。 自 动 评 分 过 程 总 体 分 为 三 个 环节 : (1) 设 定 评分 规则 ， 在 人 工 编码 
的 基础 上 基于 该 情境 下 的 关键 行为 , 逐 题 确定 评分 规则 , 评分 规则 中 包含 行为 反应 项 与 对 应 
分 值 ，(2) 自 动 文本 分 类 。 分 别 采用 文档 层面 和 句子 层面 的 思路 建 模 ， 通 过 实验 比较 多 种 模 
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型 的 分 类 效果 ， 选 月 


上 简单 有 效 的 分 类 模型 对 全 部 题目 
评 信 效 度 等 多 方面 验证 评分 效果 。 具 体 流程 如 图 2 所 示 。 


平 


分 


E 


; (3) 评 2 


分 性 能 验 说 


E。 从 模型 性 


自动 化 评分 的 实现 


确定 评分 标准 


: [scias D cm] Hes : 


文档 层面 
句子 层面 < | 


假如 您 在 实际 工作 当中 碰 到 
i 3 会 如 何 处 理 呢 ? 


可 能 做 出 的 真 


作答 宇 数 不 少 于 100 字 


问题 1 


as: 


回答 : 


多 标签 分 类 


预测 标签 
预测 分 数 


:文本 预 处 理 一 文本 表征 一 分 类 模型 ， 


CNN RNN 
i! d ^ 5646 
i! Saray), 17 
i - 图 图 Oe OU 
i EE BBE UH 


自动 化 评分 的 效 度 验证 
模型 性 能 评估 | 评分 信 效 度 
ace = 0.83 


precision = 0.64 
recall = 0.55 


FL=0.58 


p eine hate MaMa R Ne Rh ee a SN cae a a a Nt al iN — E el ae a he ee i €———— ee 


2 开放 式 情 境 判断 测验 文本 自动 化 评分 流程 图 


研究 预期 : (AS 


VIZ 
, 


准 


zu 


2 研究 过 程 
2.1 被 试 
深圳 市 627 名 
性 463 A, BH 
2.2 研究 工具 


(2) 基 于 深度 学 习 的 文本 分 类 模型 可 应 月 
外 性 高 ，(3) 机 器 评分 具有 较 好 的 信 效 度 ， 人 机 评分 存在 正 向 的 强 相 关 。 


小 学 教师 参与 测试 (年 龄 : 
E164 人 ， 语 数 英 三 科教 师 占 42.9%， 其 余 学 科 占 57.1%。 


2.2.1 开放 式 教师 胜任 力 情境 判断 测验 


编 


出 过 程 如 下 。 


确定 测验 维度 。 采 月 


经 典 流程 


在 此 类 无 标准 


26-40 岁 ，M=31.52 岁 ，SD = 2.2) 


开发 的 开放 式 教 师 胜任 力 SIT 信 效 度 较 好 ， 能 有 效 区 分 教师 胜 铂 
答案 的 主观 题 评分 任务 上 ， 机 记 


, 


访谈 法 (Behavioral Event Interview, BED 对 北京 市 8 所 中 小 学 的 12 名 一 线 教师 进行 


wR, HEH 


最 终 确定 胜任 力 模型 如 ] 


发 展 他 人 ; (2) 问 题解 决 ， 动态 决策 、 灵 活 应 变 ，(3) 情 绪 智 力 : 


E7 A, EH 
事件 ， 每 人 访谈 2-3 小 时 。 对 访谈 录音 和 文本 整理 后 ， 归 类 
， 包 含 4 项 一 级 维度 和 10 项 二 级 维度 : (1) 学 生 导 向 : 关爱 学 生 、 


绪 控 制 、 人 际 
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沟通 ，(4) 成 就 动机 : 责任 心 、 挑 战 困难 、 坚 妆 。 


H 
" 


题 


编 


Œ J 


ill i H 。 


定 教学 


E 水 


Ni 


ER 


ZUM 


中 女 


( 徐 建 平 , 2004) 构 建 中 小 学 教师 胜任 特征 ， 采 取 行 为 事件 


结构 化 


5 


E 解 他 人 、 情 


! 的 五 类 


型 问题 情境 : 学 生 


m 


EERE TIE o 


ESA, FBO 6 人 。 引 导 受 访 者 回顾 生涯 中 最 成 功 与 最 遗憾 的 


[总 频次 较 高 的 关键 有 


堂 教学 、 


同事 相处 、 学 生 辅 导 、 家 校 沟通 。 依 据 四 项 一 级 维度 ， 选 取 有 代表 性 的 54 个 问题 情境 编 秆 


成 题 干 与 选项 ， 统 一 采用 指导 语 “ 在 这 样 的 情况 下 ， 你 会 怎么 做 ? 


pm 


» 
o 


专家 评定 与 题目 修订 。 向 河南 省 54 名 教学 经 验 丰 富 的 小 学 教师 发 布 专家 评定 问卷 ， 教 
龄 10 年 以 上 的 占 88.24%， 收 回 有 效 问卷 34 份 。 此 版 本 题目 为 包含 4 个 选项 的 单 选 题 ， 除 
了 完成 测验 ， 还 需 完 成 评价 问卷 ， 包 括 : 对 情境 真实 程度 (5 点 计 分 ) 做 出 评价 ;评定 选项 ， 
回答 实际 、 最 优 、 最 差 、 补 充 做 法 ， 并 提出 修改 建议 。 经 统计 ， 情 境 真实 度 均 值 为 3.61( 满 
分 5 分 )。 对 选项 分 布 进行 分 析 ， 发 现存 在 明显 的 优势 作答 倾向 。 根 据 专 家 意见 ， 对 试题 进 


行 修订 ， 最 终 确定 包含 20 道 题目 的 开放 式 SIT， 分 为 4 个 维度 : 学 生 导 向 (题目 号 为 1、8、 


9、10、12、16、20)， 问 题解 决 (题目 号 为 3、4、6、7、17、18)， 情 绪 智 力 (题目 号 为 2、5、 


11、19)， 成 就 动机 (题目 号 为 13、14、15)。 


2.2.2 效 标 工 具 


工作 满意 度 问 卷 。 采 用 冯 伯 说 (1996) 编 制 的 教师 工作 满意 量 表 ， 共 26 道 题 ， 包 含 自我 
实现 、 工 作 强 度 、 工 资 收 入 、 领 导 关 系 、 同 事 关 系 5 个 维度 。 使 用 本 次 收集 的 数据 作 信 效 度 
检验 , 整体 a 系数 为 0.89CV= 627), 五 个 维度 的 a 系数 分 别 是 : 自我 实现 0.84、 工 作 强 度 0.76、 


工资 收入 0.77、 领 导 关 系 0.79、 同 事 关 系 0.73。 验 证 性 因子 分 析 结 果 如 下 : y= 1055.595， 


dfr=289，X2Uf=3.65，RMSEA = 0.065，CFI = 0.868, TLI = 0.851, 


SRMR = 0.063. 


公用 教学 理念 与 学 科教 学 理念 问卷 。 其 中 ， 公 用 教学 理念 问卷 12 道 题 ， 对 问卷 进行 验 


证 性 因子 分 析 , 删 去 2 个 因子 负荷 低 于 0.3 的 题目 (题目 号 为 2、12), 保留 10 道 题 。 经 分 析 ， 


整体 a 系数 是 0.88(N = 627), 模型 拟 合 良好 (x?=131.363, df= 35, y? /df — 3.75, RMSEA = 0.066, 


CFI = 0.964, TLI = 0.954，SRMR = 0.029)。 学 科教 学 理念 分 为 语文 、 数 学 、 英 语 三 科 ， 各 


部 分 的 a 系数 分 别 是 0.93(n = 99), 0.68(n = 86). 0.78(n = 84). 


综合 教学 水 平 评估 材料 。 共 181 人 提交 了 完整 材料 ,由 6 名 教学 专家 评分 ， 每 个 维度 满 
分 3 分 。 评 估 材 料 涵盖 了 教学 的 前 中 后 期 工作 ， 有 具体 包括 : (1) 教 学 设计 : 教师 依据 统一 的 
要 求 提 供 一 课时 的 教学 设计 ， 评 价 标准 包括 教学 依据 、 目 标 、 重 点 、 难 点 、 方 法 、 过 程 6 


个 方面 ，(2) 教 学 视频 : 一 个 完整 的 30 分 钟 以 上 的 课堂 教学 录像 ， 
2020)， 从 课 滞 管理 、 教 学 内 容 、 思 维 培养 、 情 感 关注 4 个 维度 对 


系数 为 0.83， 四 个 维度 的 a 系数 依次 为 0.67、0.65、0.41、0.69， 验 训 


依据 课堂 观察 量 表 (凌晨 ， 
视频 进行 评分 ， 量 表 的 a 


E 性 因子 分 析 结 果 为 : ?= 


150.12, df=82, %?/df= 1.83, RMSEA=0.075, CFI=0.897, TLI=0.868, SRMR = 0.060. 
G) 学 生 作业 : 布置 作业 并 按照 优良 差 各 3 份 提交 共 9 份 具有 代表 性 的 学 生 作 业 ， 由 教学 专 
家 对 教师 的 作业 内 容 设计 、 作 业 评价 标准 设计 以 及 对 学 生 作业 的 分 析 3 个 部 分 进行 评分 。 
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2.3 数据 分 析 
使 月 


Python 3.8 进行 数据 训练 和 预测 。 


2.4 确立 评分 标准 


2.4.1 问题 界定 


MAE EF 


回答 中 包含 若 


评分 的 核心 不 是 该 情境 下 的 做 法 是 否 J 


CES ER ENTRE Y] 


H 


El 
A 


种 做 法 ， 


H SPSS 26.0 和 Mplus 8.3 做 测验 质量 分 析 ， 使 月 


解决 问题 的 步 又 、 逻辑 与 顺序 等 , 不 


H Nvivo 11 软 伯 


具有 


进行 人 工 编码 ， 使 用 


分 标准 问题 。 开 放 式 SIT 作答 文本 的 特点 为 : 一 个 问题 的 


tr 


单一 的 、 明 确 


的 答案 。 


E fff 


, 而 是 文本 中 的 


典型 


PN SE 


行为 反应 


模式 与 教师 胜任 力 模 


型 的 契合 程度 。 在 本 研究 中 ， 不 设 定 答案 模板 ， 依 据 行为 锚 定 (Behavioral Anchored) 评 分 思 
路 , 关注 情境 中 的 特定 刺激 引发 的 关键 行为 ， 由 编码 员 为 文本 中 的 所 有 回答 分 类 ， 并 将 类 别 
进一步 聚 类 为 典型 行为 反应 集 ， 并 为 反应 项 赋予 分 值 。 由 于 不 同 场景 下 的 关键 行为 不 同 ， 每 
道 题 需 单 独 设 定 评分 规则 。 

2.4.2 人 工 编码 


选取 300 人 的 作答 文本 进行 人 工 
复 或 无 关 文字 ) 的 10 A, PRE 290 份 文本 。 选 用 4 名 心理 


接受 半天 培训 ， 
目 被 随机 分 配 。 

编码 流程 包 
AS, Bar HH 


培训 内 容 包括 涡 


c 


iy 


tip 


部 分 : 第 


i 


定 行为 反应 项 。 有 具体 地 ， 每 道 题 | 


被 试 所 有 的 行为 反应 项 ， 再 一 同 修改 合 # 
应 项 (10~30 类 ， 多 为 十 几 类 )。 第 二 ， 人 工 编 码 标注 ( 打 标 签 )。 


逐 句 标注 ， 另 一 名 纺 


码 员 对 编码 


合并 完善 ; 


每 道 题 编码 完成 后 导出 结 


2.4.3 制定 评分 规则 


由 上 一 步 又 得 


与 胜任 力 特 征 的 
度 、 具 体 性 、 


E 


L1 FEE 
EHE, 


即 为 权 习 
3= 优 秀 ，0=1 
2.4.4 分 数 合成 

基于 人 -了 


FH 
结果 


核查 ， 


it, 剔除 作答 时 间 少 于 1000 秒 与 明显 不 认真 作 


维度 、 编 码 标准 、 软 件 操作 、 遇 争议 项 的 处 到 


答 ( 重 

学 专业 的 研究 生 编码 ， 编 码 前 统一 
原则 等 ， 题 

两 名 编码 员 先 通读 文 


按照 ID 整理 


过 程 中 可 以 提 


， 为 反应 项 聚 类 ， 以 确立 典型 行为 反 
名 编码 员 在 Nvivo 软件 中 


出 \ 同 意见 ， 


句子 标注 数据 集 


为 更 贴近 胜任 特 和 
性 、 逻 辑 性 等 所 体现 的 思维 水 平和 能 力 的 差异 ， 对 各 个 反应 项 赋 分 ， 分 值 
H 3 分 制 (0~3 分 )，1= 差 ， 


分 员 讨论 后 确定 ， 直 至 达成 一 致 。 


效 地 体 ] 


也 可 继续 对 编码 规则 


o 


分 规则 中 的 行为 反应 项 ， 接 下 来 ， 为 反应 项 赋予 分 值 。 依 据 作答 结果 


[编码 环节 得 到 的 每 个 ID 的 行为 反应 项 ， 依 据 人 
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E 的 有 反应 项 赋予 


岗 行 为 反应 的 差异 。 采 月 


Hs 
In] 分 1 , 


z 


LEH 


同时 关注 行为 的 丰富 


则 环节 得 到 的 反应 项 


对 应 的 分 值 ， 逐 题 将 每 个 ID 的 各 行为 反应 项 转 为 分 数 。 一 段 作答 
项 ， 将 其 分 数 加 和 后 合成 单 道 题 原始 总 分 ， 根 据 百 分 位 数 换 介 


数 为 3 分 , 后 27% 为 1 分 , 得 到 每 道 题 的 得 分 。 除 此 之 外 ， 还 计生 


20 道 题 的 分 数 加 和 )。 
2.5 自动 化 评分 的 实现 
2.5.1 数据 集 和 评价 指标 


题目 采取 3 分 制 (1~3 分 )， 满 分 60 分 。 


一 般 包 含 多 个 行为 反应 


成 等 级 分 数 ， 前 27% 等 级 分 


了 维度 分 数 和 测验 总 分 ( 即 


选 定 ID 为 1~300 的 已 标注 文本 作为 数据 集 ， 共 20 道 题目 ，6000 道 回 答 。 每 道 题 的 文 


本 中 ， 按 照 300 人 的 2:1 划分 训练 集 和 测试 集 。 在 机 器 学 习 领 域 ， 对 分 类 任务 的 评价 一 般 采 


以 二 分 类 为 例 ， 对 四 个 指标 的 计算 过 


用 准确 率 (Accuracy, Acc)、 精 确 率 (Precision, PJ)、 召 回 率 (Recall R). Fl 值 等 评价 指标 。 下 面 


程 进行 说 明 。 假 设 二 分 类 包括 正 类 和 负 类 ， 表 1 为 二 分 


类 情况 下 的 混淆 和 矩阵， 矩阵 中 的 元 素 定义 为 : 1)TP(True Positive): 实际 为 正 类 且 预 测 为 正 类 


的 样本 个 数 ; 2)TN(True Negative): 实际 为 负 类 且 预 测 为 负 类 的 样本 个 数 ; 3)FP(False Positive): 


实际 为 负 类 且 预 测 为 正 类 的 样本 个 数 ，4)FN(False Negative): 实际 为 正 类 且 预 测 为 负 类 的 样 


本 个 数 。 
表 1 二 分 类 的 混淆 矩阵 表 
预测 正 例 预测 反例 
实际 正 例 TP 真正 例 FN 假 负 例 
实际 反例 FP 假 正 例 TN 真 负 例 


准确 率 反 映 模 型 在 所 有 样本 上 的 预测 性 能 ， 
的 对 角 线 元 素 之 和 除 以 矩阵 


混淆 矩阵 


Acce=(TP+TN)/(TP+FN+FP+TN). f 


所 有 元 素 之 和 ， 


等 于 分 类 正确 的 样本 数 除 以 总 体 样 本 数 , 即 


即 准 


ii 


| 


以 二 分 类 中 的 正 类 为 例 , 精确 率 等 于 


R BERM Fl 值 三 个 指标 在 每 个 类 别 上 需 单独 计算 。 


将 正 类 样本 预测 为 正 类 的 数量 除 以 所 有 预测 为 正 类 的 样 


本 数量 ， 即 P=TP/(TP+FP); 召回 率 等 于 将 正 类 样本 预测 为 正 类 的 数量 除 以 真实 的 正 类 样本 


数量 ， 即 R=TP/(TP+FN); Fl 值 为 精 


中 的 文本 分 类 主要 为 多 分 类 任务 ， 


然后 根据 每 个 类 别 的 样本 数量 计算 加 权 平 均值 得 到 最 终 的 精确 率 、 


果 。 
2.5.2 文档 层面 多 标签 文本 分 类 


在 计 外 


确 率 和 召回 率 的 调和 平均 值 ， 即 F1=2PR/P+R)。 本 文 
评价 指标 时 先 分 别 在 每 个 类 别 上 计算 P、R、F1， 


召回 率 和 Fl 值 的 评估 结 


传统 的 文本 分 类 任务 多 是 单 标记 学 习 , 每 个 文本 只 隶属 


于 一 个 类 别 标签 ,在 一 个 类 别 上 


标记 互 斥 ,用 0 或 1 来 标记 , 但 实际 许多 样本 同时 属于 多 个 类 别 的 多 个 标签 。Schapire 于 1999 
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年 提出 了 多 标记 学 习 ， 从 标签 集合 


为 每 个 实例 分 配 最 相关 的 类 标签 子 集 。 根据 数据 集 一 段 
作答 文本 中 同时 包含 多 类 行为 反应 项 的 特点 ， 首 先 基 


于 文档 层面 尝试 多 标签 (Multi-label) 分 


选用 第 一 题 作为 实验 , 使 


深度 学 习 算法 进行 分 类 建 模 ， 从 而 实现 从 作答 文本 到 标签 体 


系 的 自动 化 映射 。 在 具体 操作 中 ， 先 进行 数据 预 处 理 ， 去 除 停 用 词 ， 输 入 文本 ， 通 过 Jieba 


分 词 和 Word2vec 预 训练 词 向 量 转化 为 数字 针 
全 连接 


E 阵 形式 , 再 连接 具有 可 训练 参数 的 神经 网 络 层 、 
I SoftMax 层 ， 最 终 输 出 文本 所 属 各 个 标签 的 概率 。 其 中 , 在 神经 网 络 层 应 用 了 多 


种 深度 学 习 方 法 ,包括 卷 积 神经 网 络 (Convolution Neural Network, CNN)(Kim, 2014)、 循环 神 


经 网 络 (Recurrent Neural Network, RNN)(Zhao et al., 2019)、 循 环 神经 网 络 串联 卷 积 神经 网 络 


(Recurrent Convolution Neural Network, R-CNN)(Lai et al., 2015) 和 循环 神经 网 络 串 联 注意 力 


网 络 (RNN + Attention)(Pang et al., 2021). # 


同时 发 挥 两 者 的 
每 个 词 的 权重 来 优化 文本 深度 表征 ， 通 常 与 
2.5.3 句子 层面 文本 多 分 类 


LA RNN 和 CNN 进行 串联 使 月 
RNN 进行 串联 使 用 。 


» CNN 主要 通过 卷 积 核 参数 来 


的 文本 局 部 深度 特征 ; RNN 通过 循环 单元 结构 来 捕捉 各 类 标签 的 文本 全 


UU Rh 


局 深度 特征 ;R-CNN 


文本 中 


H; Attention 则 通过 神经 网 络 计 售 


多 标签 分 类 任务 是 在 文档 层面 对 整 段 作答 文本 直接 输出 多 个 标签 ,， 如果 将 文档 拆 分 ， 可 


以 在 句子 


随机 选取 四 道 题目 ， 首 先进 行 数据 预 处 理 ， 


]ix, iit Jieba 分 词 和 Word2vec 预 训 练 词 向 量 将 文本 


1()G” 等 序号 来 分 割 句子 ， 去 除 停 


屋面 输出 每 句 话 单独 的 标签 。 在 人 工 编 码 环 节 ， 己 得 到 逐 句 编 


码 的 标注 集 。 


— EA 


Vh RAN 


Ae 


“ 2» 
sod rw s ^d 


和 “一 (一 ) 


转化 为 数字 矩阵， 使 用 卷 积 神经 网 络 (CNN)、 长 短 时 记忆 网 络 (Long Short-Term Memory 


Neural Network, LSTM)(Hochreiter et al.,1997)、 卷 积 神经 网 络 串联 长 短 时 记忆 网 络 (C-LSTMD)、 


长 短 时 记忆 网 络 串联 注意 力 网 络 (LLSTM+attentiom) 
预测 和 行为 反应 项 预测 。 其 中 LSTM 能 够 有 效应 对 梯度 消失 、 梯 度 爆 炸 问题 ， 


结构 变种 ，C-LSTM 是 CNN 5E LSTM 的 结合 (Zhou al.,2015)， 既 能 获得 句子 的 


了 种 深度 学 习 模型 进行 训练 ， 分 别 做 分 数 


它 是 RNN 的 


局 部 特征 ， 也 


可 以 获取 全 文中 的 时 态 句 子 语义 ,模型 通过 学 习 标注 集 


层 语义 关系 ， 以 此 完成 模型 训练 。 每 个 句子 皆 输 


找到 文本 之 间 的 深 


反应 项 或 分 数 对 应 的 句子 集合 ， 
出 两 种 预测 结果 , 一 是 分 


每 


数 预 测 ， 即 输出 句子 的 分 值 (0~3 分 )， 二 是 标签 预测 (行为 反应 项 )， 可 以 帮助 更 细致 地 评估 


作答 者 的 思想 和 能 


3 结果 
3.1 评分 规则 


原始 作答 数据 集中 ， 每 道 题 作 答 文 本 100-300 字 ，20 道 题 共 1353365 字 。 取 前 300 份 


进行 编码 ， 已 编码 647322 字 ， 单 题 标 注 724~1453 句 ， 总 计 标 注 19368 个 句子 。 选 取 第 一 道 
题 做 编码 一 致 性 检验 , 两 个 评分 者 的 人 工 编 码 一 致 性 >= 0.84, 二 次 加 权 Kappa ABA 0.78. 
每 道 题 的 评分 规则 在 人 工 编 码 后 产生 , 主要 包含 两 大 部 分 一 一 此 情境 下 的 典型 行为 反应 项 以 
及 分 值 ， 每 个 反应 项 有 唯一 的 编号 ， 共 形成 20 个 评分 规则 。 

3.2 测验 质量 分 析 

以 多 种 信 度 指标 来 考察 多 维 测验 信 度 ( 顾 红 舌 ,， 温 忠 麟 , 2017)。 经 计算 , 在 双 因子 结构 下 ， 
即 把 胜任 力作 为 全 局 因子 , 四 个 维度 作为 四 个 局 部 因子 , 同 质 性 系数 (Homogeneity Coefficient, 
HC) 和 总 合成 信 度 分 别 为 0.88 和 0.96。 测 验 整体 的 Cronbach's a 系数 为 0.91， 各 维度 的 a 系 
BA: 学生 导 向 0.79， 问 题解 决 0.76， 情 绪 智 力 0.66， 成 就 动机 0.60. 

为 检验 测验 的 结构 效 度 ， 设 定 并 比较 了 四 种 验证 性 因子 分 析 模 型 ，Mi 为 单 因子 模型 ， 
即 所 有 题目 负载 于 一 个 因子 ; M2 为 四 因子 模型 ，M 为 双 因 子 模型 (Bi-factor Model, BFM), 
BIE Ms 基础 上 ， 所 有 题目 还 负载 于 一 个 全 局 因子 , 全 局 因子 与 局 部 因子 互 不 相关 ; Mi 为 双 
因子 模型 ， 全 局 因子 与 局 部 因子 不 相关 ， 局 部 因子 两 两 相关 。 结 果 见 表 2, Ma HEFE 
他 模型 ， 因 此 选 定 Ms 为 最 佳 模 型 ， 测 验 具 有 较 清晰 的 双 因 子 结构 ， 有 具有 一 个 胜任 力 全 局 因 
子 和 四 个 维度 。 


表 2 教师 胜任 力 情境 判断 测验 的 验证 性 因子 分 析 (n = 290) 
模型 x df xadf CFI TLI SRMR RMSEA 
Mi 264.34 170 1.56 0.947 0.941 0.042 0.043 
M2 256.12 164 1.56 0.948 0.940 0.041 0.044 
Ms 226.59 190 1.19 0.957 0.946 0.038 0.042 
Ma 179.58 144 1.25 0.980 0.974 0.033 0.029 


采用 工作 满意 度 、 教 学 理念 、 教 学 能 力作 为 效 标 来 检验 效 标 关联 效 度 ， 结 果 见 表 3， 胜 


任 力 总 分 与 工作 满意 度 (m=0.20, p = 0.001)、 公 用 教学 理念 (r=0.21, p 二 0.001)、 学 科教 学 理 


念 (r3=0.22，p 三 0.001)、 教 学 能 力 中 的 教学 设计 (rs=0.26，p 三 0.001)、 课 堂 评价 (xs=0.20，p = 


0.007)、 学 生 作业 (xe=0.22，p = 0.003) 皆 呈 显 著 相 关 。 
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表 3 教师 胜任 力 总 分 及 其 维度 与 效 标 变量 的 相关 分 析 表 


变量 M+SD 1 2 3 4 


n=290 

1 总 分 37.77+8.17 1 

2 学 生 导 向 1.89+0.46 0.89" 1 

3 问题 解决 1.874+0.48 | 0.87" —0.68"** 1 

4 情绪 智力 1.9140.50 | 0.78" 0.58" | 0,5577 1 
5 成 就 动机 1.8940.54 — 0.757* 0.557" 0.58" -0.54™* 
6 工作 满意 度 3.88+0.29 020" | 022" 014 0.15* 
7 公用 教学 理念 4.58+0.41 021" 048" -0.15” 0.20** 
8 学 科教 学 理念 3.58+0.49 022" 021" 018" 0.13” 
n=181 

1 总 分 38.9548.30 1 

2 RASA 1.92+0.49 0.87°" 1 

3 问题 解决 1.96+0.47 — 0.88" 0.68™ 1 

4 情绪 智力 1.9540.52 0.76" 0.53 ”0.54 1 
5 成 就 动机 1.97+0.61 0.71" 0.52"  0.55"*  049** 
6 教学 设计 2.60+0.31 026" 024"  027T" 016 
7 课堂 视频 2.54+0.32 020" 021" 0.17" 0.10 
8 学 生 作业 2.524+0.44 0.22% 0.18" 0.227 0.18" 


* 


TE: “p<0.05, "p «0.01, 


INS 分 值 ; BO. REAM AAR (PUL eA BERR 3 分 值 。 
33 自动 化 评分 模型 性 能 
3.3.1 文档 层面 文本 多 分 类 


“p <0.001; 教师 胜任 力 测验 单 道 题 采取 3 分 值 ， 测 验 总 分 满分 60 分 ， 了 


5 6 
1 
0.13" 1 


0.18" 0.45 
0.20" 0.33" 


1 
0.18" 1 
0.13 0.61"* 


0.16" 0.43*** 


[ 作 满意 度 


T 8 
1 

0.50 1 
1 

0.39%" 1 


、 教 学 理念 问卷 采 


使 用 多 标签 标记 方法 ,将 整 段 回答 输出 多 标签 结果 。 实 验 结果 如 表 4 所 示 ， 各 模型 在 测 


试 集 上 的 表现 名 不 够 理想 ， 准 确 率 为 46%~55%。 研 究 者 推测 ， 一 方面 是 受 限于 样本 数量 ， 


男 一 方面 ， 是 由 于 分 类 类 别 过 多 ， 题 目 类 别 平均 包含 20 KEA 


标注 数量 的 尾 标签 。 


表 4 文档 层面 多 标签 文本 分 类 的 模型 实验 结果 对 比 表 


模型 Accuracy Precision 
CNN 0.46 0.51 
RNN 0.51 0.56 
R-CNN 0.55 0.71 
RNN- Attention 0.48 0.60 


3.32 句子 层面 文本 多 分 类 


将 作答 文本 拆 分 为 句子 单元 ， 在 随机 选取 的 四 道 题目 上 进行 模型 
算法 的 准确 率 、F1 值 差距 4 


(1) 对 于 分 数 预 测 任 务 ， 在 题 20 上 ， 四 


Recall 
0.25 
0.36 
0.36 
0.35 


， 且 大 多 数 标签 是 仅 有 少数 


Fl 
0.58 
0.59 
0.67 
0.60 


LWA. SCUSA ARS HA: 


B^, CNN 的 精确 率 最 


高 ,C-LSTM 的 召回 率 最 高 ;在 题 6 和 题 7 上 ,四 种 算法 的 四 个 指标 差异 较 小 , 题 6 中 C-LSTM 


略 好 ， 题 7 中 LSTM 略 好 ; 在 题 3 E, CNN 明显 优 于 其 他 模型 。(C) 对 于 反应 项 预测 任务 ， 


在 题 20 上 ， 四 种 算法 的 准确 率 、F1 值 差距 较 小 ，CNN 的 精确 
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率 较 高 ，LSTM 的 召 


| 


率 较 


mu 在 题 6 上 ， 四 种 算法 的 Fl 值 、 召 回 率 差 距 较 小 ，CNN 和 LSTM 的 准确 率 较 高 ，CNN 
。 综 合 来 看 ，CNN 表现 最 好 ， 四 


的 精确 率 最 高 ， 在 题 7、 题 3 b, CNN 的 四 项 指标 名 最 伯 


TIT 


道 题目 的 预测 分 数 准确 率 为 79%~92%， 预 测 反 应 项 准确 率 为 75%~80%。 具 体 如 图 3 所 示 。 


Q20 Q6 Q7 Q3 Q20 Q6 Q7 Q3 
0.92 0.92 
091090 | o86 089 555 083 | 0.83 082.059.053 | ors "t oso gaa 082 099 | 075 0.78 oeg | o75 0.75 UG 
EB gag Eb | i po B l Hn i | 
0.80 0.81 0.83 0.84 | 0.86.08 0.83 0.82 0.76 0.78 0.77 0.78 
Fi 0.58 0.55 0.60 0.59 | 0.56 F1 0.58 0.55 0.61 0.58 | 049 m 0.55 
| | 0.25 025,029 0.25 B 0.26 0.29 0.27 0.28 
092 0.91 09 
078 1 | 086 0.89 0.83 0.82 id 0:83 076 080 | 57, 
0.67 à 
Bi O64 057 o.61 0.62 | O64 — = 055053059 | oss 0.59 
T: 041 
0.24 0.24 0.28 0.30 0.25 0.28 
0.88 
0.74 BEN 0.78 0.81 | 006 Sr 0.84 0.82 0.72 076 0.79 0.77 
E 0.6 
Rec 0.55 0 .51 0.58 0.58 | 0.55 Rec 0.58 0.57 0060 | | 0.56 
| 0.35 9.39 027 £3 0.27 B 0.29 0.29 
模型 图 CNN MC-LSTM NLSTM LSTM*attention 模型 国 CNN 国 C-LSTM @LSTM LSTM+attention 
(a) 预 测 分 数 (b) 预 测 反 应 项 


3 四 种 模型 在 四 道 题目 上 预测 反应 项 和 预测 分 数 任务 的 结果 对 比 图 

JE: Acc 为 准确 率 (Accuracy); F1 Jy Fl-score; Pre 为 精确 率 (Precision); Rec 为 召回 率 (Recall)， 下 同 。 
3.3.3 整体 性 能 

句子 层面 的 准确 率 高 于 文档 层面 , 因此 采用 句子 层面 文本 多 分 类 的 方法 , 选 定 综合 表现 
最 佳 的 CNN 模型 对 所 有 题目 进行 自动 评分 。 结 果 如 图 4 所 示 ， 计 算 机 在 20 道 题 上 预测 分 
数 的 准确 率 为 70%~88%， 结 果 较 好 ;预测 行为 反应 项 的 准确 率 为 58%~81%， 考 虑 到 数据 集 
训练 语 料 量 较 少 而 语义 又 具有 丰富 性 的 特点 ， 以 及 分 类 类 别 较 多 , 为 十 几 至 二 十 几 类 ， 故 此 
准确 率 仍 属 较 不 错 的 结果 。 


题 号 题 号 


oi 7S oS o ENEENG S: C: ME — 044 mm mum 0.46 
< EE ^ EE: NENNEN E :0 CE BE OS E 0:7 
© 0.75 ND | [3D | 025 o M o LM P M  ([ 
Qo so — [CM — Lp Qos ER 5; _ 02 
QS —— (DM HE OEE D | — DES Qs — — [DEM — 0.42 EN 0.50 | — 0.22 


os — [DJ—— IM URRI —— DM —[ M — (MEM — — 
07 — 131——— 0s) TT oo: — I2 7 o: JL 50 


Qs CEE — [NEM O EN 056 os LX 9—LL | — — ;1 | — 0.9 

E IM D DA W Co um [LEM [LM LL 
QI10 — [DM Lr Eo EN 0.44 QI10 ——ps3 E 0.49 E 0.52 | 0.50 
my — — "EM  LOMM 0.03 | — DAS mu —— UM — 0.45 E 0.48 |  — 0.46 
Q12 — [DM LEM 6 Q12 EE OS OOE — —[xc 


o — o: A, ‘M — [CMM — — 0.70 Q13 — LEM — 0.22 | — 0.45 Eoo 

o -—H Eo NO NO 075 o-—À9^ os) OG — NO S 
015 IM o n "n p DEI INE LEM OO O OO 
Qio — o — — 70 —w— :0 — 0.70 Q16 JT w—[ EN 049 | — 0.49 

017 LI 13 — DL "A [LEM [EE pU 
Q1s DE — [5 | — 0.63 | — 0-40 Qis ——LDNM ë Oy | — 0.46 | i: 

Q19 DM 72 — [LM —— 0.65 Q19 LE — 0.45 | — 0.43 | 0.48 

020 l3 A CA W m Ha Uu DI D 


0.0 0.5 10 (0.0 0.5 1.0 0.0 0.5 10 (0.0 0.5 1.0 0.0 0.5 L0 0.0 0.5 1.00.0 0.5 10 00 0.5 1.0 
Acc Fl Pre Rec Acc FL Pre Rec 
(a) 预 测 分 数 (b) 预 测 反应 项 


图 4 CNN 在 20 道 题 上 的 结果 图 
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3.4 自动 化 评分 的 效 度 验证 

将 标注 集 前 200 人 的 数据 作为 训练 集 ， 后 100 人 的 数据 作为 测试 集 。100 人 的 机 器 评分 
结果 中 , 删 去 数据 不 完整 及 作答 时 间 过 短 的 6 人 , 对 94 人 的 1880 道 作答 的 人 机 评分 结果 进 
行 对 比分 析 ， 检 验 机 器 评分 的 信 效 度 。 
3.4.1 人 机 评分 一 致 性 

人 机 评分 的 数据 分 布 。 人 工 评 分 与 机 器 评分 的 总 体 数 据 分 布 形态 接近 ， 人 工 评分 总 分 
(36.36+7.99) 的 峰 度 为 -0.392， 偏 度 为 0.175， 机 器 评分 总 分 (37.23+7.83) 的 峰 度 为 -0.345， 偏 
度 为 0.151， 如 图 5 所 示 。 


50 60 10 20 


“人 工 评分 ” ” 机 器 评分 
5 人 工 评分 与 机 器 评分 总 分 的 分 数 频率 分 布 图 


相关 性 。 采 用 相关 系数 作为 评价 标准 ， 有 研究 者 指出 机 器 评分 与 人 工 评 分 的 相关 系数 至 


少 达 到 0.7 才 可 用 于 大 规模 、 高 权重 考试 Ramineni et al., 2012)。 经 计算 ， 人 工 评 分 总 分 


(36.36+7.99) 与 机 器 评分 总 分 (37.23+7.83) 呈 高 度 正 相关 (= 0.95，DP<0.001)， 且 在 学 生 导 向 、 


问题 解决 、 情 绪 智力 、 成 就 动机 这 4 个 维度 人 评 (1.81+0.45、1.82+0.49、1.87+0.49、1.78+0.54) 


与 机 评 (1.89+0.44、1.8440.47、1.874+0.47、1.82+0.53) 皆 为 高 度 正 相 关 (r gu 0.91，r wa = 


0.90, Fee) 70.81, rg = 0.89，p 三 0.001)， 达 到 大 规模 考试 的 使 用 要 求 。 在 20 道 题目 
上 ， 人 机 评分 的 相关 系数 + 依次 为 0.88、0.64、0.80、0.71、0.78、0.60、0.88、0.63、0.48、 
0.82、0.84、0.54、0.84、0.81、0.85、0.74、0.68、0.75、0.65、0.90, p<0.001. 

一 致 率 系 数 (Kappa)。 采 用 二 次 加 权 Kappa 系数 (QWK) 作 为 评价 标准 , Williamson 等 (2012) 
认为 自动 评分 的 QWK 应 至 少 为 0.7 才能 用 于 高 风险 测试 情况 。 本 研究 中 人 工 评 分 与 机 器 评 
分 的 QWK 


总 分 (0.82) 和 各 维度 (学 生 导 向 0.89、 问 题解 决 0.90、 情 绪 智 力 0.81、 成 就 动 
机 0.89) 丝 已 达到 用 于 高 风险 测验 的 标准 。 


3.4.2 机 器 评分 的 信和 度 与 效 度 


R 


采用 Cronbach's oa 系数 来 衡量 测验 内 部 一 致 性 信和 度 ， 使 用 机 评 结果 计算 得 出 ， 测 验 整 体 


a 系数 为 0.87， 各 维度 为 : 学 生 导 向 0.66， 问 题解 决 0.73， 人 情绪 智力 0.55， 成 就 动机 0.55. 


验证 性 因子 分 忆 


F 


t(n = 94) ZG RAN, = 210.896, df=164, x/df=3.75, RMSEA=0.055, 


CFI=0.884，TLI=0.866，SRMR=0.029， 各 项 目 在 各 因子 上 的 因子 载荷 在 0.412~0.659 之 间 ， 
结构 效 度 不 如 人 工 评分 。 机 器 评分 的 总 分 与 各 维度 的 相关 系数 如 表 5 所 示 , 各 维度 与 总 分 存 
在 较 高 相关 ， 各 维度 间 存 在 中 等 水 平 相关 。 效 标 关 联 效 度 如 表 5 Aton, 胜任 力 总 分 与 公用 教 


5 HLF RDSI 


教学 理念 


4 讨论 


显著 相关 (x = 0.22, p = 0.036). 


表 5 机 器 评分 的 描述 性 统计 和 相关 分 析 表 (n=94) 


M+SD 1 
37.2347.83 1 
1.89+0.44 0.90%" 
1.84+0.47 0.88 
1.87+0.47 0.80 
1.82+0.53 0.72 
3.8540.27 0.22" 
4.28+0.39 0.21 
3.65+0.58 0.13 


2 3 4 5 6 7 
1 
0.69" 1 
0.63" 0.58"* 1 
0.53" 0.54 0.51 1 
0.11 0.22" 0.24" 0.19 1 
0.17 0.27" 0.19 0.01 0.63 1 
0.15 0.09 0.10 0.08 0.32™ 0.44 


本 研究 试图 探索 一 种 以 心理 测量 学 理论 为 基础 的 开放 式 情境 判断 测验 自动 化 评分 范式 ， 
自动 评分 的 有 效 性 , 育 焦 具体 的 研究 问题 一 一 教师 胜任 力 测评 , 开发 了 开放 式 SIT, 
设置 细 粒 度 的 评分 规则 ， 使 用 NLP 技术 进行 文本 特征 识别 和 分 类 ， 分 别 在 文档 和 句子 层面 


为 了 验证 


度 学 习 模 


优 于 文档 
项 的 准确 


zm. # 


体 讨论 。 


4.1 评分 标准 的 设计 
确立 评分 标准 前 需 进 行 问题 界定 ,根据 测验 的 内 容 和 类 型 、 作 答 文本 的 特点 来 确定 评分 
策略 。 比 如 有 无 标准 答案 决定 着 记 


三 | ae 
是 否 需 要 


的 信息 ， 


使 用 CNN、RNN、R-CNN、RNN+Attention、LSTM、C-LSTM、LSTM +Attention 等 多 种 深 
型 对 开放 式 SIT 的 自动 化 评分 方法 进行 了 探索 。 结 果 显 示 ， 句 子 层面 的 分 类 效果 
，CNN 表现 较 好 ， 模 型 预测 分 数 的 准确 率 达 到 了 70%~88%， 预 测 反 应 


率 为 58%~81%， 模 型 性 能 较 好 ， 能 够 对 文本 进行 较 准确 的 自动 评分 ， 下 面 进行 其 


FE 分 逻辑 和 算法 设计 , 作答 文本 的 长 度 与 语义 丰富 度 决定 着 


人 工 编码 的 参与 , 也 决定 着 计 分 策略 。 评 分 规则 应 尽 可 能 体现 作答 者 个 人 特质 层面 


重点 考虑 两 个 问题 ，(1) 合 理 分 类 。 行 为 反应 项 全 面 、 具 体 、 有 代表 性 ， 尽 可 能 涵 
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盖 所 有 类 型 。 类 别 既 需 充 分 体现 差异 , 又 要 避免 分 类 过 4 
则 更 能 体现 差异 和 区 分 性 ， 但 由 于 类 别 过 多 ， 评 分 的 准确 率 会 降低 ; 若 行为 反应 项 少 ， 则 有 
利于 提高 预测 准确 率 ， 但 会 导致 区 分 度 降低 。(2) 合 到 


E 赋 分 。 通 过 分 数 高 低 体现 作答 者 水 平 


带 来 的 随机 性 。 反 应 项 若 细 致 具体 ， 


高 低 ， 各 行为 反应 项 的 赋 分 是 较 困 难 的 过 程 ， 需 反复 其 酌 对 比 ， 综 合 考量 。 
男 一 方面 , 测验 质量 对 评分 效果 有 着 直接 的 影响 。 测验 开发 与 自动 评分 这 两 个 环节 并 不 


是 独立 的 ， 本 文 探索 的 自动 评分 方法 ,关键 不 在 于 分 类 模型 的 复杂 或 先进 
更 完美 的 模型 ， 而 在 于 设计 一 套 可 行 的 开放 式 SIT 自动 
选取 合适 的 评分 模型 ,在 此 基础 上 逐步 提高 模型 评分 的 准 


发 过 程 的 随意 和 自由 , 不 可 随意 设置 题目 ,而 是 应 该 依据 坟 


首 不 着 重 于 追求 


分 方法 ， 设 定 合理 的 评分 规则 、 


角 率 。 开 放 作 答 并 不 意味 着 测验 开 


风范 的 测验 开发 标准 , 在 一 套 合 格 


的 、 信 效 度 较 好 的 测验 基础 上 实现 评分 自动 化 。 测 验 开发 者 需 对 测评 维度 有 深刻 理解 ， 在 大 


TERRE. Viveros Pr 


c 


特质 的 内 涵 和 行为 表现 ， 在 此 基础 上 才能 设计 良好 的 评分 规则 。 


此 外 ， 题 目 需 注意 用 词 ， 避 人 免 出 现 歧义 、 过 多 的 额外 或 干扰 信息 ， 影 响 测验 质量 。 


4.2 自动 化 评分 过 程 


研究 中 使 用 了 多 种 方法 、 选 用 多 种 模型 进行 实验 对 比 ， 以 选择 最 优 模型 。 根 据 具 体 任务 


的 输入 输出 形式 ,自动 化 评分 有 多 种 建 模 思 路 , 在 实践 
有 效 的 建 模 方法 。 本 研究 中 ,输入 为 被 试 的 作答 文本 ， 输 


般 需 进行 多 种 尝试 并 选取 更 简单 


出 为 该 文本 涉及 的 多 个 反应 项 或 多 


级 评分 , 这 种 输入 输出 形式 可 以 直接 对 应 机 器 学 习 领 域 的 多 标签 分 类 任务 , 因此 首先 尝试 了 


文档 层面 的 多 标签 文本 分 类 , 这 种 建 模 方法 没有 引入 句子 级 别 的 标注 信息 ,如 果 能 够 达到 可 


用 的 性 能 可 优先 使 用 。 然 而 ， 在 实践 中 ， 多 标签 分 类 结果 欠 佳 ,文章 仅 以 第 一 题 为 例 说 明了 


这 个 过 程 ， 而 句子 层面 的 自动 化 评分 能 够 取得 更 有 效 的 结果 ， 因 而 采用 了 这 种 思路 。 


不 同类 型 的 深度 学 习 模型 在 处 理 文本 分 类 任务 时 , H 


有 独特 的 优势 和 限制 , 这 些 特点 会 


在 自动 化 评分 性 能 方面 产生 不 同 的 影响 。 例 如 ， 卷 积 神经 网 络 (CNN) 在 文本 中 主要 捕获 局 部 


无 法 有 效 地 处 理 长 文本 序列 中 的 全 局 信息 ; 循环 神经 


特征 ， 如 词组 、 短 语 等 ， 对 于 需要 考虑 长 程 依赖 关系 的 任务 ，CNN 可 能 表现 较 差 ， 因 为 它 


网 络 (RNN) 及 其 变 体 ， 如 长 短 时 记忆 网 


络 (LSTM) 和 门 控 循环 单元 (GRU)， 在 处 理 序 列 数 据 时 


够 捕捉 上 下 文 信息 ， 适 用 于 对 文本 


中 长 期 依赖 关系 较 强 的 任务 。 然 而 ， 传 统 的 RNN 难以 处 理 长 序列 ， 虽 然 LSTM 和 GRU 在 


一 定 程度 上 缓解 了 这 些 问 题 ， 但 仍 受到 文本 长 度 的 限 


注意 力 机 制 (Attentiom) 使 模型 能 够 在 处 理 文本 时 聚焦 了 


出 而 在 一 些 文本 分 析 任 务 上 表现 较 差 ; 


关键 部 分 ， 有 助 于 更 好 地 捕捉 重要 信 


息 ， 但 早期 的 注意 力 机 制 通常 与 RNN 绑 定 使 用 ， 容 易 受到 RNN 模型 的 限制 。 本 研究 中 ， 


由 于 句子 层面 的 反应 项 分 类 任务 通常 与 特定 的 词组 、 短 语 等 相关 联 ， 因 此 CNN 在 本 研究 上 
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的 性 能 最 优 是 可 以 理解 的 。 在 广泛 的 研究 任务 中 , 不 同类 型 的 深度 学 习 模 弄 
具有 各 自 的 特点 , 模型 的 选择 将 对 评分 性 能 产生 显著 影响 。 根 据 伯 
的 优势 和 限制 ,选择 合适 的 模型 有 助 于 提高 自动 化 讨 


(Pre-trained Language Model)、 大 语言 模型 (如 ChatGPT) 等 被 提出 后 


定 评分 模型 的 可 用 性 。 


更 丰富 的 选择 , 但 考虑 到 场景 的 特异 性 ,仍然 需要 经 过 严谨 的 性 


CC 


自动 评分 的 效果 亦 受 多 种 人 工 因素 影响 。 在 i 
句子 的 分 割 效 果 直 接 影 响 着 分 数 , 对 于 机 器 来 说 ， 
数据 集中 标点 符号 使 用 不 规范 的 现象 越 多 ， 分 句 质 上 


平分 前 需 做 好 数据 预 处 理 


E 务 的 特殊 要 求 ， 结 合 模型 
分 的 准确 性 。 此 外 ， 在 预 训练 语言 模型 
， 自 动 化 评分 模型 也 有 了 
评估 、 信 效 度 检验 才能 确 


动 化 评分 中 


注意 分 句 方式 。 


区 分 一 段 文本 中 的 不 同 语义 


元 较为 困难 ， 
量 越 差 。 因 此 ， 在 机 器 分 句 之 后 增加 一 个 


对 分 割 数据 集 的 校 验 工作 ,会 有 助 于 后 续 获 得 更 好 的 评分 效果 。 在 更 广泛 的 测验 类 型 中 ,应 


根据 文本 长 短 、 语 义 复杂 度 ， 选 用 合适 的 分 句 标志 或 符号 。 此 外 ， 也 应 采 月 


工 编码 的 质量 ， 优 化 评分 规则 的 设置 。 
43 自动 化 评分 的 效 度 和 可 解释 性 


人 工 评分 和 机 器 评分 在 心理 测验 的 使 用 


方式 保障 人 


e 


HY ANA AUER © ERAS’ 


T 


比 了 人 机 评分 的 特点 ， 在 辨别 考生 作答 偏 题 、 


= 


吾 利 (2019) 对 
背诵 模板 、 对 考生 的 作答 进行 语意 判断 、 识 别 


作答 语序 和 逻辑 顺序 这 几 个 方面 人 类 表现 得 较 好 ， 而 机 器 评分 具有 更 少 的 评分 趋 中 现象 ,对 


考生 作答 的 整体 把 握 能 力 和 识别 异型 卷 的 能 力 都 更 强 。 机 器 评分 的 结果 
T. 除了 关注 预测 准确 率 等 一 系列 模型 评价 指标 ， 也 需 关注 评分 信 效 度 ， 尤 其 要 做 评分 的 交 
度 验证 。 本 研究 中 ， 在 测验 总 分 和 四 个 维度 分 上 ， 人 机 评分 的 x 和 QWK EKF 0.8, 在 
分 题目 上 机 器 评分 比 人 工 评分 具有 更 强 的 稳定 怕 


Rb AS 


能 否 辅助 甚至 代替 人 

效 

部 

,如 第 一 题 人 机 评分 一 致 性 高 于 两 个 评分 员 


之 间 的 一 致 性 = 0.88, r -= 0.78)。 因 此 ， 自 动 化 评分 系统 是 有 效 的 ， 在 阅卷 过 程 中 可 以 


至 少 蔡 代 一 位 评分 员 进行 评分 ， 实 现 人 机 结合 评分 或 自动 化 评分 。 


动 化 评分 的 可 解释 性 问题 更 是 研究 的 难点 .机 器 学 习 的 过 程 通常 建立 


盒 模型 ， 难 以 满足 一 个 心理 测验 对 测评 要 素 日 
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效 度 研究 被 视 为 一 种 对 测验 分 数 作 出 可 接受 的 Plausible) 解 释 的 过 程 


( 谢 小 庆 , 2013)， 自 


个 可 解释 性 不 强 的 黑 
的 描述 需求 ， 仅 从 数据 本 喘 、 文 本 表征 的 距离 远 


近来 实现 机 器 评分 是 不 够 的 。 本 研究 中 ,构建 评分 模型 时 引入 了 专家 知识 ， 这 也 是 将 机 评 过 


程 转换 成 “ 白 盒 ”模型 的 关键 ， 将 不 可 见 的 评分 过 程 ， 转 化 为 
应 的 行为 反应 项 上 ,， 不仅 能 得 到 分 数 ， 也 能 得 到 作答 者 的 行为 反应 项 ， 基 于 
可 对 作答 者 的 行为 模式 、 思 维 方式 、 人 格 特点 等 作 进一步 挖掘 。 这 种 关注 


能 够 更 细致 地 刻画 被 试 的 行为 差异 ， 是 更 细 粒 度 的 记 


也 


E 将 文本 分 类 到 评分 规则 里 对 


这 些 行为 项 ， 还 
到 有 具体 行为 的 评分 
分 模型 ， 也 更 具有 可 解释 性 。 


4.4 实践 启示 


研究 具有 广阔 的 应 用 


化 的 评估 。 第 二 ， 是 对 中 文 无 标准 答案 主 
标定 编 


发 一 一 分 类 归 集 


前 景 和 实际 意义 ， 主 要 体现 在 以 下 几 个 方面 : 
放 式 作答 形式 进行 探索 ， 减 少 选 择 题 形式 SIT A 


A 
LE 
zs 


一 ， 对 SIT 的 开 


分 性 


的 被 试 猜测 和 作假 行为 ， 实 现 对 个 体 更 


日 


fi 


式 。 不 再 
WA LSE 


[ELE 


A 
FE 
a 


工具 。 


局 限于 简单 语义 计算 和 相似 度 计生 
粒度 的 评分 规则 ,增强 了 自动 化 评分 过 程 的 可 解释 性 。 
型 的 准确 率 高 、 效 果 较 好 ， 在 实践 中 ， 评 分 更 高 效 、 节 省 人 力 和 时 
四 ， 拓 展开 放 式 SJT 的 应 用 


~ 


观 


=H 


动 化 评分 技术 的 探索 ,搭建 了 开放 式 测验 开 


RES 


专家 赋 分 


自动 评分 一 一 效果 验证 这 样 一 个 完整 的 范 


也 为 


， 而 更 注重 文本 与 所 测 心理 特质 的 对 应 关系 ， 通 
第 三 ， 自 动 化 评分 模 
是 准确 、 可 靠 的 评估 


的 自动 化 评分 提供 参考 和 


HJ 


J9 


他 类 型 开放 式 题 目 上 


指导 ， 有 助 于 将 开放 式 题 型 应 


4.5 研究 局 限 和 展望 


jü 


研究 也 存在 着 一 


局 限 。 


各 科教 师 , 属于 教 
第 二 ,标注 数量 有 


育 资源 优质 
限 ， 对 于 机 器 记 


等 限制 条 件 ， 每 题 


, 


E 更 广泛 的 测验 场景 


具体 表现 在 : 第 一 ， 样 本 代表 性 ， 被 试 选取 的 是 深圳 市 
也 区 的 青年 教 
分 来 说 ， 评 分 精度 受 
的 句子 标注 数量 在 1000 名 左右， 且 有 标签 不 均匀 的 情况 ， 影 响 机 器 学 习 
的 效果 。 第 三 ， 评 分 规则 中 的 行为 反应 项 还 可 以 尝试 进一步 的 分 类 概括 


小 学 


师 , 同 质 性 较 强 , 不 能 代表 更 一 般 化 的 教师 群体 。 
限于 标注 样本 数量 ， 由 于 时 间 及 人 力 


和 调整 。 第 四 ， 效 标 


选取 ， 应 选取 更 贴 合 的 效 标 ， 多 方面 、 多 证 据 验 证 评分 效 度 。 


未 来 研究 中 ， 将 考 有 
同时 增强 题目 的 针对 性 。 


评分 算法 上 尝试 更 多 小 样本 学 习 的 方法 ， 进 


继续 扩充 题目 


Fg, 


同时 ， 使 用 AI 自动 编码 的 方式 来 辅助 归 类 反应 项 


不 断 更 新 时 代 背 景 下 教学 中 出 现 的 新 问题 情境 ， 


， 提 高 效率 。 在 


步 提 高 机 评 准确 率 。 此 外 ， 对 于 更 丰富 的 开放 


式 构 答 形 式 如 语音 、 肢 体 动作 等 ， 可 参考 AI 面试 系统 (Lee & Kim, 2021) 的 技术 思路 ， 探 索 
开放 式 SJT 更 广阔 的 应 用 空间 。 
5 结论 
在 本 研究 条 件 下 ， 主 要 得 出 如 下 结论 : (1) 开 放 式 情境 判断 测验 可 从 关键 行为 反应 项 上 
设 定 评分 规则 ， 自 动 化 评分 的 步 又 包括 : 行为 反应 项 分 类 归 集 一 一 标 定编 码 一 一 专家 赋 分 
自动 化 评分 一 一 效果 验证 ，(2) 评 分 算法 可 从 文档 层面 和 句子 层面 分 别 设计 ， 本 研究 中 
句子 层面 的 文本 分 类 效果 优 于 文档 层面 , 其 中 卷 积 神经 网 络 的 分 类 准确 率 较 高 , 能 对 关键 行 


为 反应 项 的 字 词 特征 进行 更 好 的 


, 


和 捉 ，(3) 所 开发 的 评分 模型 具有 稳定 的 效果 ， 机 器 评分 与 


A3 


[评分 一 致 性 高 ， 具 有 较 好 的 信 效 度 ， 在 实践 中 可 部 分 代替 人 工 完 成 评分 任务 。 
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